Neural Networks for Machine Learning Lecture 10
课程地址:https://www.coursera.org/learn/neural-networks
老师主页:http://www.cs.toronto.edu/~hinton
备注:笔记内容和图片均参考老师课件。
这节课主要介绍了为什么要综合很多个模型以及一些具体的做法,这里回顾几个比较重要的方法。
Mixtures of Experts
核心思路是对不同的数据使用不同的模型(experts),最后对结果进行加权平均输出,例如高斯混合模型。
损失函数如下
利用Lecture 4中的等式,分别求梯度
可得
Dropout
首先介绍两种平均模型的方法。
现在考虑只有一个隐藏层的神经网络。
每次训练模型的时候,以$0.5$的概率忽略每个隐藏单元,这样一共可以产生$2^H$个结构,但是注意,这些隐藏层的权重是共用的,在输出的时候,输出几何平均值。这种方法相当于正规化,因为虽然有$2^H$个模型,但实际上只有$H$个参数,而且这种正规化和$L_1,L_2$惩罚项的正规化相比,权重不会太趋近于$0$。如果是多层的神经网络,那么对每一层采取Dropout方法即可。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Doraemonzzz!
评论
ValineLivere